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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

@ Prozessor und Verfahren zum Ausfuhren von Befehlen an gepackten Daten 

(§7) Es werden ein Verfahren und eine Vorrichtung zum — 

Ausfuhren von skalarer Gepackte-Daten-Befehle zur Ver- 
fiigung gestellt. GemafS einem Aspekt der Erfindung um- 
faSt ein Prozessor eine Mehrzahl von Registern, eine mit 
der Mehrzahl von Registern gekoppelte Registerumbe- 
nennungseinheit, einen mit der Registerumbenennungs- 
einheit gekoppelten Decodierer und eine mit dem Deco- 
dierer gekoppelte Ausfiihrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stellt eine Architektur- 
registerdatei zur Verfugung, um gepackte Datenoperan- 
den zu speichern, die jeweils eine Mehrzahl von Datenele- 
menten enthalten. Der Decodierer ist so konfiguriert, dalS 
er einen ersten und einen zweiten Befehlssatz decodiert, 
wobei jeder Befehl wenigstens ein Register in der Archi- 
tekturregisterdatei spezifiziert. Jeder der Befehle des er- 
sten Befehlssatzes spezifiziert Operationen, die an samtli- 
chen Datenelementen ausgefuhrt werden sollen. Im Un- 
terschied dazu spezifiziert jeder der Befehle des zweiten 
Befehlssatzes Operationen, die nur an einer Untermenge 
der in dem wenigstens einen spezifizierten Register ge- 
speicherten Datenelemente durchgefuhrt werden sollen. 
Die Ausfiihrungseinheit partieller Breite ist so konfigu- 
riert, daft sie sowohi von dem ersten als auch von dem 
zweiten Befehlssatz spezifizierte Operationen ausfuhrt. 
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Beschreibung 

Bie Erfindung bezieht sich auf einen Prozessor mit einer 
< Mehrzahl von Registern und einer Registerumbenennungs- 
einheit, die mit der Mehrzabl von Registern gekoppelt ist, 5 
um eine Architekturregisterdatei zum Speichern gepackter 
Datenoperanden zur Verftigung zu stellen, wobei jeder der 
gepackten Datenoperanden eine Mehrzahl von Datenele- 
menten aufweist. Ferner bezieht sich die Erfindung auf ein 
Verfahren zum Ausfiihren eines Makrobefehls in einem sol- 10 
chen Prozessor. Dabei verwendet der Prozessor beispiels- 
weise die SIMD-Technologie. 

Multimedia-Anwendungen, wie beispielsweise 2D/3D- 
Grafikanwendungen, Bildverarbeitung, Videokompression/ 
Dekompression, Spracherkennungsalgorithmen und Audio- 15 
verarbeitungen erfordern oftmals, daB die gleiche Operation 
an einer groBen Anzahl von Datenelementen ausgefuhrt 
werden soli (was als "Datenparallelitat") bezeichnet wird. 
Jede Art von Multimediaanwendungen implementiert typi- 
scherweise einen oder mehrere Algorithmen, die eine An- 20 
zahl von Gleitkomma- oder Ganzzahloperationen, wie bei- 
spielsweise Addieren (ADD) oder Multiplizieren (MUL) er- 
fordern. Indem Makrobefehle zur Verftigung gestellt wer- 
den, deren Ausfiihrung einen Prozessor veranlaBt, die glei- 
che Operation an mehreren Datenelementen parallel auszu- 25 
fiihren (Einzelbefehl-Mehrfachdaten (SIMD)-Technologie, 
wie sie beispielsweise von der Pentium®-Prozessor-Archi- 
tektur und dem MMX-Befehlssatz verwendet wird), wurde 
eine signifikante Verbesserung bei der Leistung von Multi- 
media-Anwendungen ermoglicht (Pentium® und MMX™ 30 
sind eingetragene Marken beziehungsweise Handelsbe- 
zeichnungen der Intel Corporation in Santa Clara, Kalifor- 
nien) Die SIMD-Technologie ist insbesondere fur solche 
Systeme geeignet, die gepackte Datenformate vorsehen. Ein 
gepacktes Datenformat ist ein solches, bei dem die Bits in 35 
einem Register logisch in eine Anzahl von Datenelementen 
fester GroBe unterteilt sind, wobei jedes Datenelement einen 
separaten Wert reprasentiert. Beispielsweise kann ein 64- 
Bit-Register in vier 16-Bit-Elemente aufgeteilt werden, von 
denen jedes einen separaten 16-Bit- Wert reprasentiert. Ge- 40 
packte-Daten-Befehle konnen dann separat jedes Element in 
diesen gepackten Daten parallel verarbeiten. 

Es wird auf Fig. 1 Bezug genommen, in der ein Beispiel 
eines Gepackte-Daten-Befehls veranschaulicht ist. Bei die- 
sem Beispiel addiert ein gepackter ADD-Befehl (beispiels- 45 
weise ein SIMD- ADD-Befehl) zugehorige Dateneiemente 
eines ersten gepackten Datenoperanden X und eines zweiten 
gepackten Datenoperanden Y, um ein Ergebnis Z gepackter 
Daten zu erzeugen, d. h. Xo+Y 0 =Zo Xi+Y^ X 2 +Y 2 =Z2 
und X3+Y 3 =Z 3 . Das Packen vieler Dateneiemente in ein Re- 50 
gister bzw. einen Speicherplatz und das Benutzen einer par- 
allelen Hardware- Ausfiihrung gestattet es der SIMD-Archi- 
tektur, mehrere Operationen gleichzeitig durchzufuhren, 
was zu einer sigmfikanten Ixistungsverbesserung fiihrt. 
Beispielsweise kOnnen bei diesem Beispiel vier einzelne Er- 55 
gebnisse in derselben Zeit erlangt werden, die zuvor erfor- 
derlich war, um ein einziges Ergebnis zu gewinnen. 

WMhrend die durch die SIMD-Architektur erreichten Vor- 
teile offensichtlich sind, verbleiben Situationen, in welchen 
es wtinschenswert ist, einzelne Ergebnisse fur nur eine Un- 60 
termenge der gepackten Dateneiemente zuriickzugeben. 
Darin besteht die der Erfindung zugrundeliegende Aufgabe. 

Diese Aufgabe wird erfindungsgemaB durch einen Pro- 
zessor mit den Merkmalen des Patentanspruchs 1 bzw. ein 
Verfahren mit d^n Merkmalen des Patentanspruchs 6 gel6st. 65 

Es werden ein Verfahren und eine Vorrichtung (Prozes- 
sor) zum Ausfiihren von Gepackte-Daten-Befehlen fur eine 
partielle Breite angegeben. GemaB einem Aspekt der Erfin- 



dung enthalt ein Prozessor eine Mehrzahl von Registern, 
eine mit der Mehrzahl von Registern gekoppelte Register- 
umbenennungseinheit, einen mit der Registerumbenen- 
nungseinheit gekoppelten Decodierer und eine mit dem De- 
codierer gekoppelte Ausfuhrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stellt eine Architekturre- 
gisterdatei zur Verftigung, um gepackte Datenoperanden zu 
speichern, von denen jeder eine Mehrzahl von Datenele- 
menten enthait Der Decodierer ist so konfiguriert, daB er ei- 
nen ersten und einen zweiten Befehlssatz decodieren kann, 
wobei jeder Befehl wenigstens ein Register in der Architek- 
turregisterdatei angibt. Jeder der Befehle des ersten Befehls- 
satzes spezifiziert Operationen, die an sSmtlichen der in dem 
wenigstens einen spezifizierten Register gespeicherten Da- 
teneiemente ausgefuhrt werden sollen. Im Unterschied dazu 
spezifiziert jeder der Befehle des zweiten Befehlssatzes 
Operationen, die nur an einer Untermenge der in dem we- 
nigstens einen spezifizierten Register gespeicherten Daten- 
eiemente ausgefUhrt werden sollen. Die Ausfuhrungseinheit 
partieller Breite ist so konfiguriert, daB sie von sowohl dem 
ersten als auch von dem zweiten Satz von Befehlen spezifi- 
zierte Operationen ausfiihren kann. 

Vorteilhafte Weiterbildungen der Erfindung sind in den 
Unteranspriichen gekennzeichnet. 

Im folgenden wird die Erfindung anhand von in der 
Zeichnung beschriebenen Ausfuhrungsbeispielen naher er- 
lautert. In der Zeichnung zeigen: 

Fig. 1 einen gepackten ADD-Befehl, der zugehorige Da- 
teneiemente aus einem ersten gepackten Datenoperanden 
und einem zweiten gepackten Datenoperanden addiert. 

Fig, 2A ist eine vereinfachte Blockdarstellung, die ein 
beispielhaftes Computersystem nach einem Ausfuhrungs- 
bei spiel der Erfindung veranschaulicht. 

Fig. 2B isl eine vereinfachte Blockdarstellung, die einen 
Beispielsatz logischer Register gemaB einem Ausfiihrungs- 
beispiel der Erfindung veranschaulicht. 

Fig. 2C ist eine vereinfachte Blockdarstellung, die Bei- 
spielsatze logischer Register gemaB einem weiteren Ausfiih- 
rungsbeispiel der Erfindung veranschaulicht. 

Fig. 3 ist ein Ablaufdiagramm, das die Befehlsausfuhrung 
nach einem Ausfiihrurigsbeispiel der Erfindung veranschau- 
licht. 

Fig. 4 veranschaulicht das Ergebnis der Ausfiihrung eines 
Befehls fur eine partielle Breite gepackter Daten gemaB den 
verschiedenen Ausfuhrungsbeispielen der Erfindung. 

Fig. 5A veranschaulicht eine Schaltungsanordnung zum 
Ausfiihren eines Befehls fiir gepackte Daten voller Breite 
und fiir gepackte Daten partieller Breite gemaB einem Aus- 
fiihrungsbeispiel der Erfindung. 

Fig. 5B veranschaulicht eine Schaltungsanordnung zum 
Ausfiihren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren Ausfiihrungs- 
beispiel der Erfindung. 

Fig. 5C veranschaulicht eine Schaltungsanordnung zum 
Ausfiihren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren Ausfiihrungs- 
beispiel der Erfindung. 

Fig. 6 veranschaulicht eine ADD-Ausfiihrungseinheit 
und eine MUL- Ausfiihrungseinheit, die in der Lage sind, als 
vier separate ADD-Ausfiihrungseinheiten bzw. vier separate 
MUI^Ausfiihrungseinheiten zu arbeiten, gemaB einer bei- 
spielhaften Prozessorimplementierung von SIMD. 

Fig. 7A-7B veranschaulichen eine Operation an gepack- 
ten Daten voller Breite und eine Operation an gepackten Da- 
ten partieller Breite, die in einer "gestaffelten" Weise ausge- 
fiihrt werden. 

Fig. 8A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors, die auf Operanden voller Breite aus 
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logischen Registem zugrrift, wahrend sie jeweils Operatio- 
nen an der faalben Breite der Operanden ausflihrt. 

Kg. 8B ist ein Zeitdiagramm, das die Schaltungsanord- 
nung gemafi Fig, 8A weiter veranschaulicht. 

Fig. 9 veranschaulicht ein AusfUhrungsbeispiel einer Au- 
Ber-der-Reihe-Pipeline zum AusfUhren von Operationen an 
Operanden in einer "gestaffelten" Weise, indem ein Makro- 
befehl in eine Mehrzahl von Mikrobefehlen konvertiert 
wird, die jeweils einen Abschnitt des Operanden voller 
Breite bearbeiten. 

Fig. 10 ist ein Zeitschaubild, das das in Fig. 9 beschrie- 
bene Ausfiihrungsbeispiel weiter veranschaulicht. 

Fig. 1 1 ist ein Blockschaltbild, das die Dekodierlogik ver- 
anschaulicht, die benutzt werden kann, um die decodierende 
Veraibeitung gemaB einem Ausfiihrungsbeispiel der Erfin- 
dung durchzufuhren. 

Es werden ein Verfahren und eine Vonichtung zum Aus- 
fUhren von Befehlen an gepackten Daten partieller Breite 
beschrieben. Hierbei wird die Bezeichnung "Befehl an ge- 
packten Daten voller Breite" verwendet, um einen Befehl an 
gepackten Daten (z. B. einen SIMD-Befehl) zu bezeichnen, 
der an s&mtlichen Datenelementen wenigstens eines gepack- 
ten Datenoperanden ausgefiihrt wird. Im Unterschied dazu 
bezeichnet der Begriff "Befehl an gepackten Daten partieller 
Breite" ganz allgemein einen Befehl an gepackten Daten, 
der nur eine Untermenge der Datenelemente des wenigstens 
einen gepackten Datenoperanden verarbeiten soil und der 
ein gepacktes Datenergebnis (beispielsweise an eine Regi- 
sterdatei gepackter Daten) zuriickgibt. Beispielsweise kann 
ein skalarer SIMD-Befehl nur ein Ergebnis einer Operation 
zwischen dem am geringsten bewerteten Paar von Datenele- 
menten der gepackten Datenoperanden erfordern. Bei die- 
sem Beispiel konnen die verbleibenden Datenelemente des 
gepackten Datenergebnisses unberiicksichtigt bleiben, da 
sie keinen EinfluB auf den skalaren SIMD-Befehl haben 
(beispielsweise konnen die verbleibenden Datenelemente 
beliebigen Inhalts sein). GemaB den verschiedenen Ausfiih- 
rungsbeispielen der Erflndung konnen Ausfuhrungseinhei- 
ten so konfiguriert werden, daB sie effizient sowohl Befehle 
an gepackten Daten voller Breite (z. B. SIMD-Befehle) als 
auch einen Satz von Befehlen an gepackten Daten partieller 
Breite (z. B. skalare SIMD-Befehle) unterbringen k6nnen. 

In do- folgenden detaillierten Beschreibung werden aus 
Griinden der Erlauterung zahlreiche spezielle Details ange- 
geben, um ein besseres Verstandnis der Erfindung zu errei- 
chen. Fiir einen Fachmann ist es jedoch klar, daB diese spe- 
ziellen Details nicht verwendet werden miissen, um die Er- 
findung auszufiihren. An anderen Stellen werden gut be- 
kannte Einrichtungen, Strukturen, Schnittstellen und Pro- 
zesse nicht oder nur in Blockdarstellung gezeigt. 



Berechtigung von Befehlen an gepackten Daten partieller 
Breite 

Betrachtet man den Umfang der Software, die fur skalare 
Architekturen (z.B. Einzelbefehl-Einzeldaten(SISD)-Ar- 
chitekturen), die skalare Operationen an Glritkommadaten 
einfacher Genauigkeit, Gleitkommadaten doppelter Genau- 
igkeit und Ganzzahldaten benutzen, geschrieben worden ist, 
so ist es wOnschenswert, Entwicklem die Option zur Verfii- 
gung zu stellen, ihre Software auf Architekturen zu portie- 
ren, die Befehle an gepackten Daten unterstiitzt, wie bei- 
spielsweise SIMD-Architekturen, ohne dafi deren Software 
umgeschrieben werden muB und/oder neue Befehle gelemt 
werden miissen. Durch die Schaffung von Befehlen an ge- 
packten Daten partieller Breite kann eine einfache (Jberset- 
zung alten skalaren Code in skalaren gepackten Datencode 
transformieren. Beispielsweise wfire es sehr leicht fiir einen 



Compiler, skalare SIMD-Befehle aus skalarem Code zu er- 
zeugen. Wenn dann die Entwickler erkermen, daB Ab- 
schnitte ihrer Software unter Verwendung von SIMD-Be- 
fehlen optimiert werden kflnnen, ktfnnen sie schrittweise 
5 Vorteil aus den Befehlen fiir gepackte Daten Ziehen. Selbst- 
verstMndlich ist es wahrscheinlich, daB die SIMD-Technolo- 
gie benutzende Computersysteme auBerdem abwartskompa- 
tibel bleiben, indem sie SISD-Befehle ebenso unterstiitzen, 
Jedoch machen es viele jiingere Architekturverbessenmgen 
10 und andere hier erdrterte Faktoren vorteilhaft fiir Entwick- 
ler, zur SIMD-Technologie Gberzugehen und sie auszunut- 
zen, selbst wenn zunachst nur skalare SIMD-Befehle ver- 
wendet werden. 
Eine weitere Rechtfertigung fur das Vorsehen von Befeh- 
15 len fiir gepackte Daten partieller Breite besteht in den vielen 
Vorteilen, die erreicht werden kQnnen, indem nur eine Un- 
termenge des Operanden voller Breite bearbeitet wird, ein- 
schlieBlich des reduzierten Stromverbrauchs, der erhohten 
Geschwindigkeit, eines sauberen Ausnahmemodells und ei- 
20 ner erhohten Speichemng. Wie unten erlSutert wird, konnen 
auf der Grundlage eines mit dem Befehl fur gepackte Daten 
partieller Breite zur Verfugung gestellten Hinweises Strom- 
einsparungen erreicht werden, indem selektiv diejenigen 
Hardwareeinheiten abgeschaltet werden, die zum Ausfuhren 
25 der gegenwartigen Operation nicht erforderlich sind. 

Eine weitere Situation, in welcher es nicht erwiinscht ist, 
einen Befehl fur gepackte Daten zu zwingen, einzelne Er- 
gebnisse fiir jedes Paar von Datenelementen zuriickzuge- 
ben, umfaBt arithmetische Operationen in einer Umgebung, 
30 die eine Hardware partieller Breite zur Verfugung stellt. In- 
folge der Kosten- und/oder Chip-Einschrankungen ist es ub- 
hch, fiir bestimmte arithmetische Operationen, wie bei- 
spielsweise das Dividieren, nicht die vollstandige Unterstiit- 
zung zur Verfugung zu stellen. Ihrer Natur nach ist die Divi- 
35 sionsoperation sehr lang, selbst wenn Hardware voller 
Breite (beispielsweise eine Eins-zu-eins-Korrespondenz 
zwischen Ausfuhrungseinheiten und Datenelementen) im- 
plementiert ist. Folglich wird in einer Umgebung, die nur 
Operationen an gepackten Daten voller Breite unterstiitzt, 
40 wahrend Hardware partieller Breite zur Verfugung gesteUt 
wird, die Verzogerung noch langer. Wie unten nMher veran- 
schaulicht wird, kann eine Operation fiir gepackte Daten 
partieller Breite, wie beispielsweise eine Divisionsoperation 
fiir gepackte Daten partieller Breite, es selektiv bestimmten 
45 Abschnitten ihrer Operanden gestatten, die Divisionshard- 
ware zu umgehen. Auf diese Weise wird kein Leistungs- 
nachteil dadurch verursacht, daB nur eine Untermenge der 
Datenelemente in den gepackten Datenoperanden bearbeitet 
wird. 

50 Zusatzlich konnen Ausnahmen, die in Verbindung mit un- 
wesentlichen Datenelementen entstehen, eine Konfusion fiir 
den Entwickler und/oder eine InkompatibiMt zwischen 
SISD- und SIMD-Maschinen verursachen. Folglich ist es 
vorteilhaft, Ausnahmen nur fiir diejenigen Datenelemente 
55 zu berichten, fiir die der Befehl gedacht ist. Eine Unterstiit- 
zung von Befehlen fiir gepackte Daten partieller Breite ge- 
stattet, daB ein vorhersagbares Ausnahmemodell erreicht 
wird, indem das Auslosen von Ausnahmebedingungen auf 
diejenigen begrenzt wird, die in Verbindung mit solchen Da- 
60 tenelementen auftreten, die bearbeitet werden, oder bei wel- 
chen durch unwesentliche Datenelemente erzeugte Ausnah- 
men wahrscheinlich eine Konfusion oder Inkompatibilitat 
zwischen SISD- und SIMD-Maschinen verursachen wtirde. 
SchlieBlich steUen bei Ausfiihrungsbeispielen, bei denen 
65 Abschnitte des gepackten Zieldatenoperanden nicht im Er- 
gebnis der Ausfuhrung einer Operation fiir gepackte Daten 
partieller Breite verffilscht werden, Befehle fiir gepackte Da- 
ten partieller Breite effektiv einen zusfitzlichen Register- 
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raum zum Speichern von Daten zur Verfligung. Wenn bei- 
spielsweise an dem unteren Abschnitt des gepackten Daten- 
ope&nden eine Operation ausgefuhrt wird, kSnnen Daten im 
oberen Abschnitt gespeichert werden und umgekehrt 

Ein Beispielcomputersystem 

Fig. 2A ist ein vereinfachtes Blockschaltbild, das ein Bei- 
spielcomputersystem gemM einem Ausflihrungsbeispiel der 
Erfindung veranschaulicht. Bei dem dargestellten Ausflih- 
rungsbeispiel enthalt ein Computersystem 200 einen Prozes- 
sor 205, eine Speichereinrichtung 210 und einen Bus 215. 
Der Prozessor 205 ist mit der Speichereinrichtung 210 durch 
den Bus 215 gekoppelt. Zusatzlich sind eine Reihe von Be- 
nutzereingabe/Ausgabeeinrichtungen, wie beispielsweise 
eine Tastatur 220 und eine Anzeige 225, ebenfalls mit dem 
Bus 215 gekoppelt. Das Computersystem 200 kann dariiber 
hinaus mit einem Netzwerk 230 iiber den Bus 215 gekoppelt 
sein. Der Prozessor 205 reprasentiert eine zentrale Verarbei- 
tungseinheit einer beliebigen Architektur, wie beispiels- 
weise einer CISC-, RISC-, VLIW- oder Hybrid-Architektur. 
Dariiber hinaus kann der Prozessor 205 auf einem oder meh- 
reren Chips implementiert sein. Die Speichereinrichtung 
210 reprasentiert einen oder mehrere Mechanismen zum 
Speichern von Daten. Beispielsweise kann die Speicherein- 
richtung 210 einen Nur-Lese-Speicher (ROM), einen Spei- 
cher mit wahlfreiem Zugriff (RAM), ein magnetisches Plat- 
tenspeichermedium, ein optisches Speichermedium, Flash- 
Speicherbauelemente und/oder andere maschinenlesbare 
Medien umfassen. Der Bus 215 reprasentiert einen oder 
mehrere Busse (z. B. AGP, PCI, ISA, X-Bus, EISA, VESA 
usw.) und Briicken (die auch als Bussteuereinrichtungen be- 
zeichnet werden). Wahrend dieses Ausfuhrungsbeispiel in 
Bezug auf ein Einzelprozessor-Computersystem beschrie- 
ben wird, ist es klar, daB die Erfindung auch in einem Multi- 
Prozessor-Computersystem implementiert werden kann. 
AuBerdem ist, obwohl das vorhegende Ausfuhrungsbeispiel 
in Bezug auf ein 32-Bit- und ein 64-Bit-Computersystem 
beschrieben wird, die Erfindung nicht auf ein derartiges 
Computersystem begrenzt. 

Fig, 2A veranschaulicht zusatzlich, daB der Prozessor 205 
eine Befehlssatzeinheit 260 enthalt. Selbstverstandlich ent- 
halt der Prozessor 205 zusatzliche Schaltungen; jedoch sind 
derartige zusatzliche Schaltungen nicht fur das Verstandnis 
der Erfindung erforderlich. Auf jeden Fall enthalt die Be- 
fehlssatzeinheit 260 die Hardware und/oder Firmware zum 
Decodieren und Ausfuhren eines oder mehrerer Befehls- 
satze. Bei dem dargestellten Ausfuhrungsbeispiel enthalt die 
Befehlssatzeinheit 260 eine Dekcriier/Ausfurmrags-Einheit 
275. Die Dekodiereinheit dekodiert Befehle, die von dem 
Prozessor 205 empfangen warden sind, in einen oder meh- 
rere Mikrobefehle. Die Ausfuhrungseinheit fiihrt in Erwide- 
rung der von der Dekodiereinheit empfangenen Mikrobe- 
fehle geeignete Operationen durch. Die Dekodiereinheit 
kann unter Verwendung einer Reihe unterschiedlicher Me- 
chanismen (beispielsweise einer Nachschlagetabelle, einer 
Hardware- Implementierung, einer PLA etc.) implementiert 
werden. 

Bei dem vorliegenden Beispiel ist eine Dekodier/Ausfiih- 
rungs-Einheit 275 gezeigt, die einen Befehlssatz 280 ent- 
halt, der sowohl Befehle flir gepackte Daten voller Breite als 
auch Befehle flir gepackte Daten partieller Breite enthalt. 
Diese Befehle fur gepackte Daten konnen, wenn sie ausge- 
fiihrt werden, den Prozessor 205 veranlassen, gepackte 
Gleitkommaoperationen voller/partieller Breite und/oder 
gepackte Ganzzahloperationen voller/partieller Breite 
durchzufiihren. Zusatzlich zu den Befehlen flir gepackte Da- 
ten kann der Befehlssatz 280 weitere in vorhandenen Mikro- 
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prozessoren zu findende Befehle enthalten. Beispielsweise 
unterstiitzt der Prozessor 205 bei einem Ausflihrungsbei- 
spiel einen Befehlssatz, der mit der Intel-32-Bit-Architektur 
(IA-32) und/oder der Intel-64-Bit-Architektur (IA-64) kom- 
patibel ist! 

AuBerdem ist in der Befehlssatzeinheit 260 eine Spei- 
chereinheit 285 enthalten. Die Speichereinheit 285 kann ei- 
nen oder mehrere Sfitze von Architekturregistem (auch als 
logische Register bezeichnet), enthalten, die von dem Pro- 
zessor 205 zum Speichern von Informationen, einschliefi- 
lich Gleitkommadaten und gepackten Gleitkommadaten, be- 
nutzt werden. Zusatzlich konnen weitere logische Register 
zum Speichern von Ganzzahldaten, gepackten Ganzzahlda- 
ten und verschiedenen Steuerdaten, wie beispielsweise einer 
Anzeige fur die Spitze des Stapelspeichers und dergleichen, 
enthalten sein. Die Begriffe Architekturregister und logi- 
sche Register werden im folgenden verwendet, urn auf das 
Konzept der Art und Weise Bezug zu nehmen, auf welche 
Befehle einen Speicherbereich angeben, der einen einzelnen 
Operanden enthalt. So kann ein logisches Register in Hard- 
ware unter Verwendung einer beliebigen Anzahl gut be- 
kannterjTechniken implementiert sein, einschlieBlich eines 
speziellen physikalischen Registers, eines oder mehrerer dy- 
namisch unter Verwendung eines Registerumbenennungs- 
mechanismus (detaillierter unten beschrieben) zugewiese- 
ner physikalischer Register, etc. In jedem Fall reprasentiert 
ein logisches Register die kleinste Einheit eines durch einen 
Befehl fur gepackte Daten adressierbaren Speichers. 

Bei dem dargestellten Ausfuhrungsbeispiel ist in der 
Speichereinrichtung 210 ein Betriebssystem (OS) 235 und 
eine Routine fur gepackte Daten 240 zur Ausfuhrung durch 
das Computersystem 200 gespeichert. Die Routine 240 fur 
gepackte Daten ist eine Sequenz von Befehlen, die einen 
oder mehrere Befehle fur gepackte Daten, wie beispiels- 
weise skalara SIMD-Befehle oder SIMD-Befehle enthalten 
kann. Wie unten naher erortert wird, gibt es Situationen, ein- 
schlieBlich Geschwindigkeits-, Stromverbrauchs- und Aus- 
nahmebehandlung, in denen es erwunscht ist, eine Opera- 
tion nur an einer Untermenge von Datenelementen in einem 
gepackten Datenoperanden oder einem Paar gepackter Da- 
tenoperanden durchzufuhren (oder nur fur diese Unter- 
menge einzelne Ergebnisse zuriickzugeben). Folglich ist es 
fur den Prozessor 205 vorteilhaft, in der Lage zu sein, zwi- 
schen Befehlen fur gepackte Daten voller Breite und Befeh- 
len fur gepackte Daten partieller Breite unterscheiden zu 
kGnnen und diese entsprechend ausfuhren zu konnen. 

Fig. 2B ist eine vereinfachte Blockdarstellung, die Bei- 
spielsStze von logischen Registern gemafi einem Ausfuh- 
rungsbeispiel der Erfindung veranschaulicht. Bei diesem 
Beispiel enthalt die Speichereinheit 285 eine Mehrzahl ska- 
larer Gleitkommaregister 291 (eine skalare Registerdatei) 
und eine Mehrzahl gepackter Gleitkommaregister 292 (eine 
Registerdatei fur gepackte Daten). Die skalaren Gleitkom- 
maregister 291 (z. B. die Register R0-R7) kSnnen als eine 
als Stapel referenzierte Registerdatei implementiert sein, 
wenn Gleitkommabefehle so ausgefuhrt werden, dafi sie 
kompatibel mit der vorhandenen, fur die Intel- Architektur 
geschriebenen Software sein sollen. Bei altemativen Aus- 
fuhrungsbeispielen jedoch k5nnen die Register 291 als eine 
flache Registerdatei behandelt werden. Bei dem dargestell- 
ten Ausfuhrungsbeispiel ist jedes der gepackten Gleitkom- 
maregister (z.B. XMM0-XMM7) als ein einzelnes logi- 
sches 128-Bit-Register implementiert. Es ist jedoch klar, 
daB breitere oder schmalere Register benutzt werden kSn- 
nen, urn an eine Implementierung angepafit zu sein, die 
mehr oder weniger Datenelemente orte groBere oder klei- 
nere Datenelemente verwendet Zusfitzlich kOnnen mehr 
oder weniger packte Gleitkommaregister 292 vorgesehen 
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sein. Ahnlich wie die skalaren Gleitkommaregister291 kto- 
nen die gepackten Gleitkommaregister 292 ent weder als sta- 
pelreferenzierte Registerdatei oder als flache Registerdatei 
implementiert werden, wenn die gepackten Gleitkommabe- 
fehle ausgeflihrt werden 

Fig. 2C ist eine vereinfachte Blockdarstellung, die bei- 
spielhafle Satze logischer Register nach einem weiteren 
Ausfiihrungsbeispiel der Erfindung veranschaulicht. Bei 
diesem Beispiel entMlt die Speichereinheit 285 wiedenim 
eine Mehrzafal skalarer Gleitkommaregister 291 (eine ska- 
lare Registerdatei) und eine Mehrzahl gepackter Gleitkom- 
maregister 292 (eine Registerdatei gepackter Daten). Jedoch 
werden bei dem daigestellten Ausfiihrungsbeispiel sSmtli- 
che gepackten Gleitkommaregister (z. B. XMM0-XMM7) 
als einander entsprechende Paare hoher 293 und medriger 
Register 294 implementiert. Wie unten naher erortert wer- 
den wird, ist es fur die Zwecke der Befehlsdekodierung vor- 
teilhaft, den logischen RegisteradreBraum fur die gepackten 
Gleitkommaregister 292 so zu organisieren, daB sich die 
Paare hoher und niedriger Register durch ein einzelnes Bit 20 
unterscheiden. Bei spiels weise konnen die hohen und niedri- 
gen Abschnitte von XMMq-XMM? durch das MSB (most 
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cher Befehl flir gepackte Daten voller Breite ist, im Schritt 
330 ein gepacktes Datenergebnis bestimmt, indem die von 
dem Befehl spezifizierte Operation an jedem der Datenele- 
mente in dem bzw. den Operanden ausgeflihrt wild. Wenn 
jedoch der Befehl ein Befehl flir gepackte Daten partieller 
Breite ist, dann wird im Schritt 340 ein erster Abschnitt des 
Ergebnisses bestimmt, indem die von dem Befehl spezifi- 
zierte Operation an einer Untermenge der Datenelemente 
durchgefUhrt wird und indem der Rest des Ergebnisses auf 
einen oder mehrere vorgegebene Werte gesetzt wild. Bei ei- 
nem Ausfiihrungsbeispiel ist der vorgegebene Wert der Wert 
der jeweils einander entsprechenden Datenelemente in ei- 
nem der Operanden. Das heiBt, es konnen Datenelemente 
von den Datenelementen eines der Operanden zu den je- 
weils entsprechenden Datenelementen in dem gepackten 
Datenergebms "durchgeleitet" werden. Bei einem anderen 
Ausfiihrungsbeispiel konnen die Datenelemente in dem ver- 
bleibenden Abschnitt des Ergebnisses sSmtlich geloscht (auf 
Null gesetzt) werden. Eine Beispiellogik zum Durchfuhren 
des Durchleitens der Datenelemente von einem der Operan- 
den zu dem Ergebnis und eine Beispiellogik zum Loschen 
der Datenelemente in dem Ergebnis werden unten beschrie- 
ben. 

Fig. 4 veranschaulicht das Ergebnis der Ausfiihrung eines 



significant bit) differenziert werden. Vorzugs weise ist jedes 

der gepackten Gleitkommaregister 291 breit genug, um vier w 

32-Bit-Gleitkommadaten-Elemente einfacher Genauigkeit 25 Befehls fur gepackte Daten partieller Breite gemaB den ver 

aufzunehmen. Wie oben jedoch konnen breitere oder schiedenen Ausfiihrungsbeispielen der Erfindung. Bei die- 

schmalere Register benutzt werden, um an Implementierun- sem Beispiel wird eine Operation an Datenelementen von 

gen angepaBt zu werden, die mehr oder weniger Datenele- zwei logischen Quelienregistern 410 und 420 durch eine 

mente bzw. groBere oder kleinere Datenelemente verwen- Ausfuhrungseinheit 440 ausgeflihrt. Die Ausfuhrungsein- 

den. Zusatzlich konnen, wahrend die logischen gepackten 30 heit 440 enthalt eine Schaltungsanordnung und Logik zum 



Gleitkommaregister 292 bei diesem Beispiel jeweils einan- 
der entsprechende Paare von 64-Bit-Registern aufweisen, 
bei alternativen Ausfiihrungsbeispielen samtliche gepackten 
Gleitkommaregister eine beliebige Anzahl von Registern 
umfassen. 

Ubersicht iiber die Befehlsausfiihrung 
Nachdem ein Beispielcomputersystem beschrieben wor- 



Durchfiihren der von dem Befehl spezifizierten Operatio- 
nen. Zusatzlich kann die Ausfuhrungseinheit 440 eine Aus- 
wahlschaltung enthalten, die es der Ausfuhrungseinheit 440 
gestattet, entweder in einem Modus fur gepackte Daten par- 
35 tieller Breite oder in einem Modus flir gepackte Daten voller 
Breite zu arbeiten. Beispielsweise kann die Ausfuhrungsein- 
heit 440 eine Durchleitschaltung zum Durchleiten von Da- 
tenelementen von einem der logischen Quellregister 410, 
420 zu dem logischen Zielregister 430 enthalten, oder sie 
den ist, in welchem ein Ausfiihrungsbeispiel der Erfindung 40 kann eine Loschschaltung zum Loschen eines oder mehrerer 



implementiert werden kann, wird jetzt die Befehlsausfiih- 
rung beschrieben. 

fig. 3 ist ein Ablaufdiagramm, das die Befehlsausfiihrung 
gemaB einem Ausfiihrungsbeispiel der Erfindung veran- 
schaulicht. Im Schritt 310 wird ein Befehl durch den Prozes- 
sor 205 empfangen. Im Schritt 320 wird die Verarbeitung 
auf der Grundlage der Art des Befehls (ob es ein Befehl fur 
gepackte Daten partieller Breite (zum Beispiel ein skalarer 
SIMD-Befehl) oder ein Befehl fur gepackte Daten voller 



45 



Datenelemente des logischen Zielregisters 430 enthalten. 
Zahlreiche andere Techniken konnen ebenfalls benutzt wer- 
den, um das Ergebnis der Operation zu beeinflussen, wobei 
diese Techniken einschlieBen, daB eines der Eingangssi- 
gnale fur die Operation auf einen vorgegebenen Wert ge- 
zwungen wird, wie beispielsweise einen Wert, der die Ope- 
ration zwingen wiirde, ihre Identitatsfunktion durchzufuh- 
ren, oder einen Wert, der durch die arithmetischen Operatio- 
nen laufen kann, ohne eine Ausnahme (z. B. eine quiet not- 



Breite (zum Beispiel ein SIMD-Befehl) ist) entweder mit 50 a-number (QNaN)) zu signalisieren 

dem Schritt 330 oder dem Schritt 340 fortgesetzt. IJblicher- Bei dem veranschaulichten Beispiel wird nur das Ergeb- 

weise wird in der Dekodiereinheit die Art des Befehls auf nis (Zo) der Operation an dem ersten Paar von Datenelemen- 

der Grundlage der in dem Befehl enthaltenen Informationen ten (Xo und Y 0 ) in dem logischen Zielregister 430 gespei- 

bestimmt. Beispielsweise kflnnen die Informationen einen chert. Nimmt man an, daB die Ausfiilirungseinheit 440 eine 

PrSfix oder Suffix enthalten, der an den Befehlscode ange- 55 Durchleitlogik enthalt, so werden die verbleibenden Daten- 

hSngt oder tiber einen Direktdatenwert zur Verfugung ge- elemente des logischen Zielregisters 430 auf die Werte aus 

stellt wird, um anzuzeigen, ob die zugehorige Operation an den zugehorigen Datenelementen des logischen Quellregi- 

samtlichen oder einer Untermenge der Datenelemente des sters 410 (d. h. X 3 , X 2 und X0 gesetzt. Wahrend das logi- 

gepackten Datenoperanden bzw. der gepackten Datenope- sche Zielregisters 430 als ein separates logisches Register 

randen ausgeflihrt werden soli. Auf diese Weise kann der 60 gezeigtist,istes wichtig anzumerken, daB es gleichzeitig als 



gleiche Befehlscode sowohl fur Operationen an gq>ackten 
Daten vollo: Breite als auch flir Operationen an gepackten 
Daten partieller Breite verwendet werden. Altemativ kann 
ein Satz von Befehlscodes flir Operationen an gepackten 
Daten partieller Breite und ein anderer Befehlscodesatz flir 
OpCTationen an gepackten Daten voller Breite verwendet 
werden. 

In jedem Fall wird dann, wenn der Befehl ein herkbmmli- 



eines der logischen Quellregister 410, 420 dienen kann. 
Folglich sollte es klar sein, daB das Setzen der Datenele- 
mente des logischen Zielregisters 430 auf Werte aus einem 
der logischen Quellregister 410, 420 in diesem Kontext be- 
65 deuten kann, daB in diesen Datenelementen uberhaupt 
nichts passiert. Beispielsweise k5nnen in dem Fall, daB das 
logische Quellregister 410 sowohl ein logisches Quell- als 
auch ein Zielregister ist, verechiedene Ausfiihrungsbeispiele 
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Vorteile daraus Ziehen, und einfach eines oder mehrere der 
Datenelemente, die durchgeleitet werden sollen, nicht be- 

Altemativ kann die Ausfiihrungseinheit 440 eine Lflsch- 
logik enthalten. So werden anstelle des Durchleitens von 5 
Werten von einem der logischen Quellregister zu dem logi- 
schen Zielregister 430 diejenigen Datenelemente in dem Er- 
gebnis, die nicht erforderlich sind, geldscht. Wiederum wird 
bei diesem Beispiel nur das Ergebnis (Zo) der Operation an 
dem ersten Paar von Datenelementen (Xo und Y 0 ) in dem lo- 10 
gischen Zielregister 430 gespeichert Die veibleibenden Da- 
tenelemente des logischen Zielregisters 430 werden "ge- 
ldscht" (d. h. auf Null oder auf einen anderen fur diesen Fall 
vorgegebenen Wert gesetzt). 

15 

Hardware voller Breite 



Die Fig, 5A-5C veranschaulichen Ausfiihrungseinheiten 
540, 560 bzw. 580, welche sowohl Befehle fur gepackte Da- 
ten voller Breite als auch fur gepackte Daten partieller 20 
Breite ausfuhren konnen. Die in den Ausfiihrungseinheiten 
gemaB Fig. 5A und 5C enthaltene Auswahllogik stellt eine 
beispielhafte Durchleitlogik dar, wahrend die Auswahllogik 
gemaB Fig. 5B fur eine Loschlogik, die benutzt werden 
kann, reprasentativ ist. Bei den daigestellten Ausfiihnings- 25 
beispielen enthalten die Ausfiihrungseinheiten 540, 560 und 
580 jeweils eine geeignete Logik, Schaltungsanordnung 
und/oder Finnware zum gleichzeitigen Ausfuhren einer 
Operation 570, 571 und 572 an den Operanden voller Breite 
(X und Y). 30 

Es wird jetzt auf Fig. 5A Bezug genommen, bei der die 
Ausfiihrungseinheit 540 eine Auswahllogik (zum Beispiel 
Multiplexer (MUX) 555-557) enthalt, urn zwischen einem 
durch die Operation 570 erzeugten Wert und einem aus ei- 
nem entsprechenden Datenelement eines der Operanden 35 
herriihrenden Wert auszuwahlen. Die MUX 555-557 kon- 
nen beispielsweise durch ein Signal gesteuert werden, das 
anzeigt, ob die gerade ausgefuhrte Operation eine Operation 
an gepackten Daten voller Breite oder eine Operation an ge- 
packten Daten partieller Breite ist Bei alternativen AusfUh- 40 
rungsbeispielen kann eine zusatzliche Flexibilitat dadurch 
erreicht werden, daB eine zusatzliche MUX fur das Daten- 
element 0 eingeschlossen wird und/oder jede MUX unab- 
hMngig gesteuert wird. Verschiedene Einrichtungen zum 
Schaffen einer MUX-Steuerung sind mSglich, GemaB ei- 45 
nem Ausfiihrungsbeispiel kann eine solche Steuerung aus 
dem Befehl selbst herrtihren, oder aus ihm abgeleitet werden 
oder sie kann durch einen Direktwert zur Verfugung gestellt 
werden. Beispielsweise kann ein 4-Bit-Direktwert, der dem 
Befehl zugeordnet ist, verwendet werden, um eine direkte 50 
Steuerung der MUX 555-557 durch Software zu gestatten. 
Diejenigen Multiplexer, die zu einer Eins in dem Direktwert 
gehflren, konnen angewiesen werden, das Ergebnis der Ope- 
ration auszuwahlen, wahrend diejenigen Multiplexer, die zu 
einer Null gehdren, veranlaBt werden k5nnen, das Durchlei- 55 
ten von Daten auszuwahlen. Selbstverstandlich kann eine 
grSBere oder geringere Auflttsung bei verschiedenen Imple- 
mentierungen erreicht werden, indem mehr oder weniger 
Bits zum Darstellen des Direktwerts benutzt werden. 

Es wird jetzt auf Fig. 5B Bezug genommen, bei der die 60 
Ausfiihrungseinheit 540 eine Auswahllogik (z. B. Multiple- 
xer 565-567) zum Auswahlen zwischen einem durch eine 
Operation 571 erzeugten Wert und einem vorgegebenen 
Wert (z. B. Null) enthalt. Wie oben, kGnnen die Multiplexer 
565-567 sich unter einer gemeinsamen Steuerung befinden 65 
oder unabhSngig gesteuert werden. 

Die Durchleitlogik gemaB Fig. 5C (z.B. Multiplexer 
575-576) wShlt zwischen einem Datenelement eines der 



Operanden und einem Identitatsfunktionswert 590 aus. Der 
Identitatsfunktionswert 590 wird grundsatzlich so ausge- 
wahlt, daB das Ergebnis der Durchftihrung der Operation 
572 zwischen dem Identitatsfunktionswert 590 und dem Da- 
tenelement identisch dem Wert des Datenelements ist. Wenn 
beispielsweise die Operation 572 eine Multiplikationsopera- 
tion ware, dann ware der Identitatsfunktionswert 590 eine 
Eins. In ahnlicher Weise ware dann, wenn die Operation 572 
eine Additionsoperation ware, der Identitatsfunktionswert 
590 eine Null. Auf diese Weise kann der Wert eines Daten- 
elements selektiv zu dem logischen Zielregister 430 hin- 
durchgeleitet werden, indem die entsprechenden Multiple- 
xer 575-577 veranlaflt werden, den Identitatsfunktionswert 
590 auszugeben. 

Bei den oben beschriebenen Ausfuhrungsbeispielen war 
die Schaltung fest verdrahtet, so daB die Operationen par- 
tieller Breite an dem am geringsten bewerteten Datenele- 
mentabschnitt durchgefiihrt wurden. Es ist klar, daB die 
Operation an anderen Datenelementabschnitten als die dar- 
gestellten durchgefiihrt werden kann. Dariiber hinaus kon- 
nen, wie oben beschrieben wurde, die zu bearbeitenden Da- 
tenelemente durch Software konfigurierbar gemacht wer- 
den, indem samtliche der Operationen mit einem Multiple- 
xer oder dergleichen und nicht nur eine Untermenge der 
Operationen, wie es in den Fig. 5A-5C dargestellt ist, ge- 
koppelt werden. Wahrend eine Durchleit- und eine Loschlo- 
gik als zwei Optionen zum Behandeln der sich ergebenden 
Datenelemente, die Operationen entsprechen, die nicht be- 
riicksichtigt werden sollen, beschrieben werden, konnen 
dariiber hinaus alternative Ausfiihrungsbeispiele andere 
Techniken benutzen. Beispielsweise kann ein QNaN als ei- 
ner der Operanden einer Operation eingegeben werden, de- 
ren Ergebnis vemachlassigt werden soil. Auf diese Weise 
leiten Operationen, die mit dem IEEE 754-Standard, IEEE 
std. 754-1985, veroffentlicht am 21. Marz 1985, iiberein- 
stimmen, ein NaN zu dem Ergebnis weiter, ohne eine arith- 
metische Ausnahme auszulosen. 

Wahrend keine deutliche Geschwindigkeitserhohung bei 
den oben beschriebenen Ausfuhrungsbeispielen erreicht 
wird, da die voile Breite der Operanden parallel verarbeitet 
werden kann, ist es klar, daB der Stromverbrauch reduziert 
werden kann, indem diejenigen der Operationen abgeschal- 
tet werden, deren Ergebnisse vemachlassigt werden. So 
konnen betnichtliche Energieeinsparungen erreicht werden. 
Dariiber hinaus kann bei Verwendung von QNaNs und/oder 
von Identitatsfunktionswerten ein vorhersagbares Ausnah- 
memodell aufrechterhalten werden, indem vermieden wird, 
daB Ausnahmen durch Datenelemente ausgelost werden, die 
nicht Teil der Operation an gepackten Daten partieller Breite 
sind. Folglich sind die berichteten Ausnahmen auf diejeni- 
gen begrenzt, die in Verbindung mit denjenigen Datenele- 
menten entstehen, an welchen die Operation fur gepackte 
Daten partieller Breite vorgibt zu arbeiten. 

Fig. 6 veranschaulicht eine aktuelle Prozessorimplemen- 
tiening einer arithmetisch-logischen Einheit (ALU), die 
zum Ausfiihren von Befehlen fiir gepackte Daten voller 
Breite verwendet werden kann. Die ALU gemaB Fig. 6 ent- 
halt die Schaltung, die zum Ausfuhren von Operationen an 
der vollen Breite der Operanden (d. h. an samtlichen Daten- 
elementen) erforderlich ist. Fig. 6 zeigt dariiber hinaus, daB 
die ALU mehrere unterschiedliche Arten von Ausfiihrungs- 
einheiten enthalten kann. Bei diesem Beispiel enthalt die 
ALU zwei unterschiedliche Arten von Ausfiihrungseinhei- 
ten zum Ausfimren unterschiedlicher Arten von Operatio- 
nen (z. B. verwenden bestimmte ALUs separate Einheiten 
zum Durchfiihren von ADD- und MUL-Operationen). Die 
ApD-Ausfimrungseinheit und die MUL-Ausflihrungsdn- 
heit sind jeweils in der Lage, als vier separate ADD-Ausfiih- 
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ningseinheiten bzw. vier separate MUL- Ausfllhrungseinhei- 
ten betrieben zu werden. Altemativ kann die ALU eine oder 
mehrere MultipHziere-AkkumTiliCTe(MAC)-Einheiten ent- 
halten, die jeweils in der Lage sind, mehr als nur eine Art ei- 
ner Operation durchzufuhren. Wfihrend die folgenden Bei- 5 
spiele die Verwendung von ADD- und MUL-Ausfiihrungs- 
einheiten und Gleitkommaoperationen unterstellen, ist es 
klar, daB andere AusfUhrungseinheiten, wie beispielsweise 
MAC und/oder Ganzzahloperationen ebensogut verwendet 
werden konnen. Ferner kann es vorzuziehen sein, eine Im- 10 
plementierung partieller Breite zu benutzen (z. B. eine Im- 
plementierung mit weniger als einer Eins-zu-eins-Korre- 
spondenz zwischen den Ausfiihrungseinheiten und den Da- 
tenelementen) sowie eine zusatzliche Logik, zum Koordi- 
nieren der erneuten Verwendung der Ausfiihrungseinheiten, 15 
wie es unten beschrieben wird. 

Hardware partieller Breite und "gestaffelte Ausfiihrung" 

Die Fig. 7A-7B veranschaulichen eine Operation fur ge- 20 
packte Daten voller Breite bzw. eine in einer "gestaffelten" 
Weise durchgefuhrte Operation fur gepackte Daten par- 
tieller Breite, 1m Kontext dieses Ausfiihmngsbeispiels be- 
zieht sich die "gestaffelte Ausfiihrung" auf den ProzeB des 
Unterteilens jedes der Operanden eines Befehls in separate 25 
Segmente und die sequentielle Verarbeitung jedes Segments 
unter Verwendung derselben Hardware. Die Segmente wer- 
den sequentiell verarbeitet, indem eine Verzogerung in die 
Verarbeitung aufeinanderfolgender Segmente eingefuhrt 
wird. Wie es in den Fig. 7A-7B veranschaulicht ist, werden 30 
in beiden Fallen die gepackten Datenoperanden in ein "hoch 
bewertetes Segment" (Datenelemente 3 und 2) und ein 
"niedrig bewertetes Segment" (Datenelemente 1 und 0) un- 
terteilt. Bei dem Beispiel gemaB Fig. 7A wird das niedrig 
bewertete Segment veraibeitet, wahrend das hoch bewertete 35 
Segment verzogert wird. Nachfolgend wird das hoch bewer- 
tete Segment verarbeitet, und es wird ein Eigebnis voller 
Breite erzielt. Bei dem Beispiel gemaB Fig. 7B wird das 
niedrig bewertete Segment verarbeitet, wahrend die Tatsa- 
che, ob das hoch bewertete Datensegment verarbeitet wird, 40 
von der Implementierung abhangig ist. Beispielsweise 
braucht das hoch bewertete Datensegment nicht verarbeitet 
zu werden, sofern das zugehorige Ergebnis auf Null gesetzt 
werden soli. Zusatzlich ist es klar, daB dann, wenn das hoch 
bewertete Datensegment nicht veraibeitet wird, sowohl das 45 
hoch als auch das niedrig bewertete Datensegment zur glei- 
chen Zeit bearbeitet werden konnen. In ahnlicher Weise 
konnen bei einer Implementierung voller Breite (z. B. einer 
Implementierung mit einer Eins-zu-Eins-Korrespondenz 
zwischen Ausfiihrungseinheiten und Datenelementen) die 50 
hoch und niedrig bewerteten Datensegmente gleichzeitig 
verarbeitet werden, wie es in Fig. 7A gezeigt ist. 

Obwohl im folgenden nur AusfUhrungsbeispiele be- 
schrieben werden, die nur ADD- und MUL-Ausfuhrungs- 
drmeitenaufweisen,k5nnendaruberhinaus auch andere Ar- 55 
ten von Ausfiihrungseinheiten, wie beispielsweise MAC- 
Einheiten, verwendet werden. 

Wahrend es eine Reihe unterschiedlicher Wege gibt, auf 
welchen die gestaffelte Ausfiihrung von Befehlen eireicht 
werden kann, beschreiben die folgenden Abschnitte zwei 60 
exemplarische Ausfiihrungsbeispiele, um diesen Aspekt der 
Erfindung zu veranschaulichen. Insbesondere empfangen 
beide der beschriebenen Ausfiihrungsbeispiele jeweils den- 
selben Makrobefehl, der 128-Bit-Operanden enthaltende lo- 
gische Register spezifiziert 65 

Bei dem ersten Ausfiihrungsbeispiel bewirkt jeder Ma- 
krobefehl, der 128-Bit-Operanden enthaltende logische Re- 
gister spezifiziert, daB auf die voile Breite der Operanden 



aus den physikalischen Registem zugegriffen wird. Nach 
dem Zugriff auf die Operanden voller Breite aus den Regi- 
stem werden die Operanden in die niedrig und hoch bewer- 
tete Segmente unterteilt (z. B . unter Verwendung von Latch- 
Speichern und Multiplexern) und sequentiell unter Verwen- 
dung derselben Hardware ausgefiihrt Die resultierenden Er- 
gebnisse halber Breite werden gesammelt und dann gleich- 
zeitig in ein einziges logisches Register geschrieben. 

Im Unterschied dazu wird bei dem zweiten Ausfiihrungs- 
beispiel jeder 128-Bit-Operanden enthaltende logische Re- 
gister spezifizierende Makrobefehl in zumindest zwei Mi- 
krobefehle unterteilt, die jeweils an nur der Halfte der Ope- 
randen operieren. Somit werden die Operanden in ein hoch 
und ein niedrig bewertetes Segment unterteilt und jeder Mi- 
krobefehl bewirkt separat, daB nur auf die Halfte der Ope- 
randen aus den Registern zugegriffen wird. Diese Art einer 
Unterteilung ist bei einer SIMD-Architektur moglich, weil 
jeder der Operanden unabhangig von dem anderen ist. Wah- 
rend Implementierungen des zweiten Ausfuhrungsbeispiels 
die Mikrobefehle in einer beliebigen Reihenfolge (entweder 
in einem Inder-Reihenfolge oder einem AuBer-der-Reihe- 
Ausfuhrungsmodell) ausfuhren konnen, bewirken die jewei- 
ligen Mikrobefehle, daB die von dem Makrobefehl spezifi- 
zierte Operation unabhangig oder separat an dem niedrig 
und hoch bewerteten Segment der Operanden durchgefuhrt 
wird. Dariiber hinaus bewirkt jeder Mikrobefehl, daB die 
Halfte der sich ergebenden Operanden in ein einziges logi- 
sches Zielregister, das durch den Makrobefehl spezifiziert 
ist, geschrieben wird. 

Wahrend Ausfiihrungsbeispiele beschrieben werden, bei 
welchen 128-Bit-Operanden in zwei Segmente unterteilt 
werden, konnten alternative Ausfiihrungsbeispiele groBere 
oder kleinere Operanden verwenden und/oder diese Operan- 
den in mehr als zwei Segmente unterteilen. Zusatzlich konn- 
ten, obwohl zwei Ausfiihrungsbeispiel zum Durchfuhren ei- 
ner gestaffelten Ausfiihrung beschrieben wurden, alterna- 
tive Ausfiihrungsbeispiele andere Techniken verwenden. 

Erstes eine "gestaffelte Ausfiihrung" benutzendes Ausfiih- 
rungsbeispiel 



Fig. 8 A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors gemaB einem ersten Ausfiihrungsbei- 
spiel, die auf Operanden voller Breite aus den logischen Re- 
gistern zugreift, aber die die Operationen jeweils an der 
Halfte der Breite der Operanden durchfiihrt. Dieses Ausfiih- 
rungsbeispiel unterstellt, daB die Prozessorausfuhrungsma- 
schine in der Lage ist, einen Befehl pro Taktzyklus zu verar- 
beiten. Als Beispiel sei angenommen, daB die folgende Se- 
quenz von Befehlen ausgefiihrt wird: ADD X,Y; MUL A3. 
Zum Zeitpunkt T werden jeweils 128 Bits von X und 
128 Bits von Y aus den jeweiligen physikalischen Registern 
ttber die Ports 1 und 2 gewonnen bzw. gelesen. Die niedriger 
bewerteten Datensegmente, nSmlich die unteren 64 Bits, 
von sowohl X als auch Y werden an die Multiplexer 802 und 
804 weitergeleitet und dann weiter zu den Ausfiihrungsein- 
heiten flir die Verarbeitung. Die h5her bewerteten Datenseg- 
mente, nSmlich die hOheren 64 Bits von X und Y werden in 
den Verz5gerungselementen Ml und M2 gehalten. Zum 
Zeitpunkt T+l werden die hoher bewerteten Datensegmente 
von X und Y aus den VerzOgerungselementen Ml und M2 
gelesen und an die Multiplexer 802 und 804 weitergeleitet 
und dann weiter zu den Ausfiihrungseinheiten zur Verarbei- 
tung. Grundsatzlich gestattet der Verz5gerungsmechanis- 
mus des Speichems der htiher bewerteten Datensegmente in 
den Verzdgerungselementen Ml und M2 einer N-Bit-Hard- 
ware (N=64 in diesem Beispiel), 2N*Bits von Daten zu ver- 
arbeiten. Die niedrig bewerteten Ergebnisse aus der Ausfiih- 
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rungseinheit werden in dem Verzfigerungselement M3 ge- 
halten, bis die hoher bewerteten Eigebnisse bereit sind. Die 
Ergd>nisse beider Verarbeitungsschritte werden dann in die 
Registerdatei 800 tiber den Port 3 zuriickgeschrieben. Man 
erinnere sich, daB im Falle einer Operation fiir gepackte Da- 5 
ten partieller Breite ein oder mehrere Datenelemente des 
niedrig oder hoch bewerteten Ergebnisses auf einen vorge- 
gebenen Wert (z. B. Null oder den Wert eines entsprechen- 
den Datenelements in entweder X oder Y) anstelle der Aus- 
gabe der ADD- oder MUL-Operation gezwungen werden 10 
k8nnen. 

Zurn Zeitpunkt T+l kann dariiber hinaus der MUL-Be- 
fehl gestartet worden sein. Somit konnen zurn Zeitpunkt 
T+l 128 Bits von A und B jeweils von ihren zugehorigen 
Registern iiber die Ports 1 und 2 gelesen worden sein. Die 15 
niedriger bewerteten Datensegmente, namlich die unteren 
64 Bits, von sowohl A als auch B, konnen in die Multiplexer 
806 und 808 geleitet werden. Nachdem die hoher bewerte- 
ten Bits von X und Y aus den Verzogerungselementen Ml 
und M2 entfernt und in die Multiplexer 806 und 808 geleitet 20 
worden sind, konnen die hoher bewerteten Bits von A und B 
im Speicher der Verzogerungselemente Ml und M2 gehal- 
ten werden. Die Eigebnisse beider Verarbeitungsschritte 
werden dann in die Registerdatei 800 iiber den Port 3 zu- 
riickgeschrieben. 25 

Somit werden gemaB einem Ausfuhrungsbeispiel der Er- 
findung Ausfuhrungseinheiten vorgesehen, die nur die 
Halfte der Hardware enthalten (z. B. zwei ADD- Ausfuh- 
rungseinheiten einfacher Genauigkeit und zwei MUL-Aus- 
fuhrungseinheiten einfacher Genauigkeit) anstelle der Aus- 30 
fuhrungseinheiten, die zur parallelen Verarbeitung der vol- 
len Breite der Operanden erforderlich sind, wie sie in einem 
gegenwartigen Prozessor zu finden sind. Diese Ausfuh- 
rungsform zieht Vorteil aus einer statistischen Analyse, die 
zeigt, daB Multimedia-Anwendungen etwa 50% ADD-Be- 35 
fehle und 50% MUL-Befehle verwenden. Auf der Grund- 
lage dieser Statistik unterstellt dieses Ausfuhrungsbeispiel, 
daB Multimedia-Befehle grundsatzlich dem folgenden Mu- 
ster folgen: ADD, MUL, ADD, MUL, etc. Durch Verwen- 
den der ADD und MUL-Ausfuhrungseinheiten in der oben 40 
beschriebenen Weise sorgt die vorliegende Erfindung fur 
eine optimale Verwendung der Ausfuhrungseinheiten, wo- 
bei sie eine mit gegenwartigen Prozessoren vergleichbare 
Leistung zu niedrigeren Kosten ermoglicht. 

Fig. 8B ist ein Zeitdiagramm, das die Schaltung gemaB 45 
Fig. 8A naher veranschaulicht. Wie es in Fig. 8B veran- 
schaulicht ist, fuhren die beiden ADD-Ausfuhrungseinhei- 
ten dann, wenn der Befehl "ADD X,Y" zurn Zeitpunkt T 
ausgegeben wird, zunSchst eine Addition der niedriger be- 
werteten Datensegmente oder der niedriger bewerteten bei- 50 
den gepackten Datenelement gemaB Fig. 1, namlich XqY 0 
und Xj Yi aus. Zurn Zeitpunkt T+l wird die ADD-Operation 
an den verbleibenden zwei Datenelementen der Operanden 
durch dieselben Ausfuhrungseinheiten durchgefiihrt, und 
die nachfolgenden zwei Datenelemente des hGher bewerte- 55 
ten Datensegments werden addiert, namlich X2Y2 und 
X3Y3. Wfihrend das obige Ausfuhrungsbeispiel unter Be- 
zugnahme auf ADD- und MUL-Operationen unter Verwen- 
dung von zwei Ausfuriningseinheiten beschrieben wurde, 
kormen alternative Ausfiirirungsbeispieleeinebeliebige An- 60 
zahl von Ausfuhrungseinheiten verwenden und/oder eine 
beliebige Anzahl unterschiedlicher Operationen in einer ge- 
staffelten Weise ausfuhren. 

GemaB diesem Ausfuhrungsbeispiel kann eine 64-Bit- 
Hardware verwendet werden, um 128-Bit-Daten zu verar- 65 
beiten. Ein 128-Bit-Register kann in vier 32-Bit-Elemente 
unterteilt werden, von denen jedes einen separaten 32-Bit- 
Wert reprflsentiert Zurn Zeitpunkt T fUhren die beiden 



ADD-AusfUhrungseinheiten zunfichst Additionen an den 
zwei niedrigen 32-Bit- Werten durch, gefolgt von einer Ad- 
dition an den hdheren 32-Bit- Werten zum Zeitpunkt T+l. 
Im Falle einer MUL-Operation verhalten sich die MTJL- 
AusfUhrungseinheiten in der gleichen Weise. Diese Fahig- 
keit zu einer Verwendung gegenwartig verfUgbarer 64-Bit- 
Hardware, um 128-Bit-Daten zu verarbeiten, stellt einen si- 
gnifikanten Kostenvorteil fur Hardware-Hers teller dar. 

Wie oben beschrieben, werden die ADD- und MUL-Aus- 
fuhrungseinheiten gemaB dem vorliegenden Ausfuhrungs- 
beispiel erneut verwendet, um eine zweite ADD- oder 
MUL-Operation bei einem nachfolgenden Taktzyklus er- 
neut auszufuhren. Selbstverstandlich werden im Fall eines 
Befehls fiir gepackte Daten partieller Breite die Ausfuh- 
rungseinheiten erneut verwendet, aber die Operation wird 
nicht notwendigerweise erneut ausgefuhrt, da die Stromver- 
sorgung zur Ausfuhrungseinheit selektiv abgeschaltet wer- 
den kann. In jedem Fall zieht, wie oben beschrieben wurde, 
dieses Ausfuhrungsbeispiel fur diese Neu- Verwendung bzw. 
"gestaffelte Ausfuhrung 11 Vorteil aus dem statistischen Ver- 
halten von Multimedia-Anwendungen. 

Wenn ein zweiter ADD-Befehl einem ersten ADD-Befehl 
folgt, kann der zweite ADD-Befehl durch eine Einplanungs- 
einheit (scheduling unit) verzogert werden, um den ADD- 
Ausfuhrungseinheiten zu gestatten, den ersten ADD-Befehl 
abzuschlieBen, bzw. genauer, den ADD-Befehl fur das ho- 
her bewertete Datensegment abzuschlieBen. Der zweite 
ADD-Befehl kann dann mit der Ausfuhrung beginnen. Al- 
ternativ kann bei einem AuBer-der-Reihe-Prozessor die Ein- 
planungseinheit bestimmen, daB ein MUL-Befehl, der sich 
weiter hinten im Befehlsstrom befindet, auBer der Reihe 
ausgefuhrt werden kann. Wenn dies der Fall ist, kann die 
Einplanungseinheit die MUL-Ausfuhrungseinheiten infor- 
mieren, mit der Verarbeitung des MUL-Befehls zu begin- 
nen. Wenn keine MUL-Befehle zur Verarbeitung zum Zeit- 
punkt T+l verfiigbar sind, gibt der Einplaner keinen dem er- 
sten ADD-Befehl folgenden Befehl aus, womit den ADD- 
Ausfuhrungseinheiten Zeit gegeben wird, den ersten ADD- 
Befehl abzuschlieBen, bevor der zweite ADD-Befehl begon- 
nen wird. 

Noch ein weiteres Ausfuhrungsbeispiel der Erfindung ge- 
stattet, daB "back-to-back^-ADD- oder -MUL-Befehle aus- 
gegeben werden, indem die Befehle auf den gleichen Aus- 
fiihrungseinheiten in halben Taktzyklen anstelle von vollen 
Taktzyklen ausgefuhrt werden. Die Ausfuhrung eines Be- 
fehls in einem halben Taktzyklus "verdoppelt" effektiv die 
Hardware, d. h. macht die Hardware zweimal so schnell. 
Auf diese Weise konnen die ADD- oder MUL-Ausfuh- 
rungseinheiten w&hrend jedes Taktzyklus verfiigbar sein, 
um einen neuen Befehl zu verarbeiten. Eine verdoppelte 
Hardware gestattet, daB die Hardwareeinheiten zweimal so 
effektiv ausfuhren, wie eine einfache Hardware, die nur bei 
vollstMndigen Taktzyklen ausfuhrt. Eine derart verdoppelte 
Hardware erfordert signifikant mehr Hardware, kann jedoch 
effektiv den Befehl im halben Taktzyklus verarbeiten. 

Es ist klar, daB Modiflkationen und Variationen der Erfin- 
dung von der obigen Lehre abgedeckt werden und innerhalb 
des Umfangs der anMngigen Ansprtiche liegen k5nnen, 
ohne vom Geist und Umfang der Erfindung abzuweichen. 
Beispielsweise kSnnen, obwohl nur zwei Ausfuhrungsein- 
heiten oben beschrieben wurden, beliebig viele logische 
Einheiten zur VerfUgung gestellt werden. 

Zweites eine "gestaffelte Ausflihrung" verwendendes Aus- 
ftihrungsbeispiel 

Gem^B einem alternativen Ausfuhrungsbeispiel der Er- 
findung wird die gestaffelte Ausfuhrung eines Operanden 
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voller Breite erreicht, indem ein Makrobefehl fiir eine voile 
Breite in zumindest zwei Mikrobefehle konvertiert wird, die 
jeweils an nur der Haifte der Operanden operieren. Wie un- 
ten naher beschrieben wird, kann dann, wenn die Makrobe- 
fehle eine Operation fiir gepackte Daten partieller Breite 5 
spezifizieren, eine bessere Leistung erreicht werden, indem 
Mikrobefehle eliminiert werden, die zum Bestimmen des 
Ergebnisses partieller Breite nicht erforderlich sind. Auf 
diese Weise werden die Einschrankungen der Prozessorres- 
sourcen reduziert, und der Prozessor wird nicht unndtiger- 10 
weise mit wirkungslosen Mikrobefehlen okkupiert. Obwohl 
die folgende Beschreibung unter Beriicksichtigung eines 
speziellen Registerumbenennungsverfahrens beschrieben 
ist, ist es klar, daB andere Registerumbenennungsmechanis- 
men ebenfalls im Rahmen der Erfindung benutzt werden 15 
konnen. Das unten beschriebene Registerumbenennungs- 
verfahren unterstelit die Verwendung einer Register- Alias- 
Tabelle (RAT), eines Umordnungspuffers (ROB) und eines 
Retirement-Puffers, wie sie im Detail in dem US-Patent Nr. 
5,446,912 beschrieben sind. Alternative Registerumbenen- 20 
nungsverfahren, wie sie beispielsweise im US-Patent Nr. 
5,197,132 beschrieben sind, konnen ebenfalls implementiert 
werden. 

Fig, 9 veranschaulicht ein Ausfuhrungsbeispiel einer 
Pipeline zum Durchfuhren von Operationen an Operanden 25 
in einer "gestaffelten" Weise, indem ein Makrobefehl in eine 
Mehrzahl von Mikrobefehlen konvertiert wird, die jeweils 
einen Abschnitt der Operanden voller Breite bearbeiten. Es 
sei angemerkt, daB verschiedene andere Stufen der Pipeline, 
zum Beispiel eine "Vorab-Heranhol-Stufe", nicht im Detail 30 
gezeigt sind, um die Erfindung nicht unnotigerweise zu ver- 
dunkeln. Wie veranschaulicht, wird an der Dekodierstufe 
der Pipeline ein Makrobefehl fiir eine voile Breite empfan- 
gen, der logische Quellregister spezifiziert, die jeweils einen 
Operanden voller Breite (z.B. 128 Bits) speichern. Bei- 35 
spielsweise sind die beschriebenen Operanden gepackte 
128-Bit-Gleitkomma-Datenoperanden. Bei diesem Beispiel 
unterstutzt der Prozessor Y logische Register zum Speichern 
gepackter Gleitkomma-Daten. Der Makrobefehl wird in Mi- 
krobefehle konvertiert, namlich eine "hoch bewertete Ope- 40 
ration" und eine "niedrig bewertete Operation", die jeweils 
bewirken, daB die Operation des Makrobefehls an der hal- 
ben Breite der Operanden (z. B. 64 Bits) durchgefuhrt wird. 

Die zwei Mikrobefehle fiir die halbe Breite bewegen sich 
dann in eine Registerumbenennungsstufe der Pipeline. Die 45 
Registerambenennungsstufe enthalt eine Anzahl von Regi- 
sterabbildungs- und UmordnungspufTern . Die logischen 
Quellregister jedes Mikrobefehls sind Zeiger auf spezielle 
RegistereintrSge in einer Registerabbildungstabelle (z.B. 
einer RAT). Die Emtrage in der Registerabbildungstabelle 50 
wiederum zeigen auf den Ort des physikalischen Quellspei- 
cherplatzes in einem ROB oder in einem Retirement-Regi- 
ster. GemaB einem Ausfuhrungsbeispiel wird, um die oben 
beschriebenen hoch und niedrig bewerteten Operationen 
halber Breite unterzubringen, eine RAT fiir gepackte Gleit- 55 
komma-Daten mit Y • 2 Eintragen vorgesehen. Somit wird 
beispielsweise anstelle einer RAT mit den Eintragen fur 8 
logische Register eine RAT mit 16 Eintragen erzeugt, wobei 
jeder Eintrag entweder als "hoch" oder als "niedrig" adres- 
siert wird. JederEintrag identifiziert eine 64-Bit-Quelle, die 60 
entweder einem hohen oder einem niedrigen Tfeil des logi- 
schen 128-Bit-Registers entspricht. 

Jeder do* hoch und niedrig bewerteten Mikrobefehle 
weist somit zugehdrige Eintrage in der Registerabbildungs- 
tabelle auf, die den jeweiligen Operanden entsprechen. Die 65 
Mikrobefehle werden dann in eine Einplanungsstufe (bei ei- 
nem AuBer-der-Reihe-Prozessor) oder an eine Ausflihrungs- 
stufe (bei einem In-der-Reihenfolge-Prozessor) bewegt. Je- 
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der Mikrobefehl liest und verarbeitet separat ein 64-Bit-Seg- 
ment der 128-Bit-Operanden. Eine der Operationen (z. B. 
die niedriger bewertete Operation) wird zunSchst von den 
64-Bit-Hardware-Einheiten ausgefiihrt. Dann fQhrt dieselbe 
64-Bit-Hardware-Einheit die hdher bewertete Operation 
aus. Es ist klar, daB kein Befehl oder auch mehrere Befehle 
zwischen der niedriger und der h6her bewerteten Operation 
ausgefuhrt werden konnen. 

Obwohl das obige Ausfuhrungsbeispiel beschreibt, daB 
der Makrobefehl in zwei Mikrobefehle unterteilt wird, k8n- 
nen alternative Ausfuhrungsbeispiele den Makrobefehl in 
mehr als zwei Mikrobefehle unterteilen. WShrend Fig. 9 
zeigt, daB die gepackten Gleitkomma-Daten an eine Retire- 
ment-Registerdatei mit Y * 2 64-Bit-Registern, die jeweils 
als hoch oder niedrig bezeichnet sind, zuriickgibt, konnen 
alternative Ausfuhrungsbeispiele eine Retirement-Register- 
datei mit Y 128-Bit-Registern verwenden, Zusatzlich k6n- 
nen, walirend ein Ausfuhrungsbeispiel beschrieben ist, das 
einen Registerumbenennungsmechanismus mit einem Um- 
ordnungspuffer und einer Retirement-Registerdatei auf- 
weist, alternative Ausfuhrungsbeispiele einen beliebigen 
Registerumbenennungsmechanismus verwenden. Beispiels- 
weise verwendet der Registerumbenennungsmechanismus 
gemaB dem US-Patent Nr. 5,197,132 eine Vorgeschichte- 
Warteschlange und eine Back-up- Abbildung. 

Fig. 10 ist ein Zeitdiagrarhm, das das in Fig. 9 beschrie- 
bene Ausfuhrungsbeispiel naher veranschaulicht. Zum Zeit- 
punkt T tritt ein Makrobefehl "ADD X,Y" in die Dekodier- 
stufe der Pipeline gemaB Fig. 9 ein. Beispielsweise ist der 
Makrobefehl hier ein 128-Bit-Befehl. Der 128-Bit-Makro- 
befehl wird in zwei 64-Bit-Mikrobefehle konvertiert, nam- 
lich die hoch bewertete Operation "ADD X h ,Yh" und die 
niedrig bewertete Operation "ADD X L ,Y L ". Jeder Mikrobe- 
fehl bearbeitet dann ein Datensegment, das zwei Datenele- 
mente enthalt. Beispielsweise kann zum Zeitpunkt T die 
niedrig bewertete Operation durch eine 64-Bit-Ausfuh- 
rungseinheit ausgefuhrt werden. Dann wird zu einem ande- 
ren Zeitpunkt (z. B. zum Zeitpunkt T+N) die hoher bewer- 
tete Operation durch dieselbe 64-Bit-Ausfulirungseinheit 
ausgefuhrt. Dieses Ausfuhrungsbeispiel der Erfindung ist 
somit insbesondere fur die Verarbeitung von 128-Bit-Befeh- 
len unter Verwendung vorhandener 64-Bit-Hardwaresy- 
steme ohne signifikante Veranderungen der Hardware geeig- 
net Die vorhandenen Systeme konnen leicht erweitert wer- 
den, so daB sie eine neue Abbildung zum Behandeln ge- 
packter Gleitkomma-Daten zusatzlich zu den vorhandenen 
logischen Registerabbildungen enthalten. 

Es wird jetzt auf Fig. 11 Bezug genommen; anhand der 
die Dekodierlogik beschrieben wird, die gemaB einem Aus- 
fuhrungsbeispiel der Erfindung verwendet werden kann. 
Kurz gesagt empfangen bei dem dargestellten Ausfuhrungs- 
beispiel eine Mehrzahl von Decodierern 1U0, 1120 und 
1130 jeweils einen Makrobefehl und konvertieren ihn in ei- 
nen Mikrobefehl. Dann wird die Mikrooperation hinab zum 
Rest der Pipeline gesendet. Selbstverstandlich sind nicht N 
Mikrobefehle fur die Ausfuhrung jedes Makrobefehls erfor- 
derlich. Folglich ist es iiblicherweise der Fall, daB nur eine 
Untermenge von Mikrobefehlen zur Verarbeitung durch den 
Rest der Pipeline eingereiht wird. 

Wie oben beschrieben, kfinnen gepackte Datenoperatio- 
nen als zwei Mikrobefehle halber Breite implementiert wer- 
den (z. B. eine hoch bewertete Operation und eine niedrig 
bewertete Operation). Anstelle des unabhangigen Decodie- 
rens des Makrobefehls durch zwei Decodierer, um die hoch 
und die niedrig bewertete Operation zu erzeugen, wie es ty- 
pischerweise bei bekannten Prozessorimplementierungen 
erforderlich sein wtirde, ktinnen als Mwkmal der vorliegen- 
den Ausfflhrungsform beide Mikrobefehle durch den glei- 



U DE 199 14 617 A 1 U 

17 18 

chen Decodierer erzeugt werden. Bei diesem Beispiel wild rungstechniken sind Fachleuten auf diesem Gebiet klar. 
dies durch die Replikationslogik 1150 ausgefUhrt, welche Obwohl aus Griinden der Vereinfachung nur ein einzelner 
enttfeder die hoch bewertete oder die niedrig bewertete Makrobefehl gezeigt ist, der zu einem vorgegebenen Zeit- 
Operation repliziert und nachfolgend die sich ergebende re- punkt bei dem dargestellten AusfUhrungsbeispiel decodiert 
pHzierte Operation geeignet modifiziert, urn die verblei- 5 wird, kdnnen bei altemativen Ausfiihrungsbeispielen meh- 
bende Operation zu erzeugen. Wie oben beschrieben wurde, rere Makrobefehle gleichzeitig decodiert werden. Darttber 
ist es wichtig, da6 durch sorgf&ltiges Codieren des Registe- hinaus ist es klar, daB die Mikrobefehlsreplikation eine brei- 
radreBraums die von den Mikrobefehlen adressierten Regi- tere Anwendung findet, als die bei dem obigen Ausftih- 
ster(z. B. die logischen Quell- und Zielregister) so gebildet rungsbeispiel dargestellte. Beispielsweise k5nne auf eine 
werden kdnnen, daB sie sich durch einziges Bit unterschei- 10 Weise, die fihnlich der oben beschriebenen ist, Makrobe- 
den. Im Ergebnis kann die Modifikationslogik 1160 in ihrer fehle fur gepackte Daten voller Breite und partieller Breite 
einfachsten Form einen oder mehrere Inverter aufweisen, durch denselben Decodierer decodiert werden. Sofern ein 
um die richtigen Bits zu invertieren, urn eine hoch bewertete Prafix verwendet wird, um Makrobefehle fur gepackte Da- 
Operation aus einer niedrig bewerteten Operation und um- ten voller Breite und partieller Breite zu unterscheiden, kann 
gekehrt zu erzeugen. In jedem Fall wird dann der replizierte 15 der Decodierer einfach den Prafix ignorieren und beide Ar- 
Mikrobefehl zum Multiplexer 1170 weitergeleitet. Der Mul- ten von Befehlen auf die gleiche Weise decodieren. Dann 
tiplexer 1170 empfangt dariiber hinaus einen von dem Deco- werden die geeigneten Bits in den sich ergebenden Mikroo- 
dierer 1120 erzeugten Mikrobefehl. Bei diesem Beispiel gibt perationen modifiziert, um selektiv die Verarbeitung fiir ent- 
der Multiplexer unter der Steuerung eines Giiltigkeitsdeco- weder samtliche oder eine Untermenge der Datenelemente 
dierers 1180 den replizierten Mikrobefehl fiir gepackte Da- 20 zu ermoglichen. Auf diese Weise konnen Mikrobefehle fur 
tenoperationen (die Operationen fur gepackte Daten par- gepackte Daten voller Breite aus Mikrobefehlen fur ge- 
tieller Breite umfassen) aus und gibt den Mikrobefehl aus, packte Daten partieller Breite erzeugt werden oder umge- 
der vom Decodierer 1120 empfangen wurde, fiir von ge- kehrt, wodurch sich die Komplexitat des Decodierers verrin- 
packten Datenoperationen abweichende Operationen. Folg- gert. 
lich ist es vorteilhaft, die Befehlscodeabbildung zu optimie- 25 

ren, um die Erfassung gepackter Datenoperationen durch die Patentanspriiche 
Replikationslogik 1150 zu vereinfachen. Wenn beispiels- 
weise nur ein geringer Abschnitt des Makrobefehls uber- 1. Prozessor mit einer Mehrzahl von Registern und ei- 
priift werden muB, um gepackte Datenoperationen von an- ner Registerumbenennungseinheit, die mit der Mehr- 
deren Operationen zu unterscheiden, so konnte eine gerin- 30 zahl von Registern gekoppelt ist, um eine Architektur- 
gere Schaltungsmenge durch den Gultigkeitsdecodierer registerdatei zum Speichem gepackter Datenoperanden 
1180 benutzt werden. zur Verfugung zu stellen, wobei jeder der gepackten 
Bei einer Implementierung, die Quelldateneleinente zu Datenoperanden eine Mehrzahl von Datenelementen 
dem logischen Zielregister zum Zwecke der Ausfiihrung aufweist, 
von Operationen fiir gepackte Daten partieller Daten durch- 35 dadurch gekennzeichnet, 

leitet, kann zusatzlich zur Auswahllogik, ahnlich der die un- daB ein Decodierer mit der Registerumbenennungsein- 

ter Bezugnahme auf die Fig. 5 A und 5C beschrieben worden heit gekoppelt ist, um einen ersten und einen zweiten 

ist, Logik enthalten sein, um entweder die hoch oder die Satz von Befehlen zu decodieren, die jeweils wenig- 

niedrig bewertete Operation zu eliminieren (zu "vernich- stens ein Register in der Architekturregisterdatei spezi- 

ten"). Vorzugsweise wird aus Leistungsgriinden der unwe- 40 fizieren, wobei jeder Befehl in dem ersten Satz von Be- 

sentliche Mikrobefehl friih in der Pipeline eliminiert. Diese fehlen Operationen an samtlichen in dem wenigstens 

Eliminierung kann gemaB dem dargestellten Ausfuhrungs- einen spezifizierten Register gespeicherten Datenele- 

beispiel ausgefiihrt werden, indem ein Mikrobefehlsaus- mente spezifiziert, wobei jeder Befehl des zweiten Sat- 

wahlsignal verwendet wird, das von der Mikrobefehlslan- zes von Befehlen eine Operation an nur einer Unter- 

genbestimmungsschaltung 1190 ausgegeben wird. Die Mi- 45 menge der in dem wenigstens einen spezifizierten Re- 

krobefeWslangenbestimmungsschaltung 1190 uberpriift ei- gister gespeicherten Datenelementen spezifiziert, und 

nen Abschnitt des Makrobefehls und erzeugt das Mikrobe- daB eine Ausfuhrungseinheit partieller Breite mit dem 

fehlsauswahlsignal, welches eine spezielle Kombination ei- Decodierer gekoppelt ist, um entweder von dem ersten 

ner oder mehrerer Mikrobefehle anzeigt, die weiter unten in oder dem zweiten Satz von Befehlen spezifizierte Ope- 

der Pipeline ausgefuhrt werden sollen. Im Falle eines skala- 50 rationen auszufuhren. 

ren SIMD-Befehls wird nur einer der sich ergebenden hoch 2. Prozessor nach Anspruch 1, dadurch gekennzeich- 

und niedrig bewerteten Operationen gestattet, fortzufahren. net, daB die Untermenge der in einem spezifizierten 

Beispielsweise kann das Mikrobefehlsauswahlsignal durch wenigstens einen Register gespeicherten Datenele- 

eine Bitmaske reprasentiert sein, die diejenigen der Mikro- mente einander entsprechende am geringsten bewertete 

befehle identifiziert, die beibehalten werden sollen, und die- 55 Datenelemente umfaBt. 

jenigen, die eliminiert werden sollen. Alternativ kann das 3. Prozessor nach Anspruch 1 oder 2, gekennzeichnet 

Mikrobefehlsauswahlsignal einfach die Nummer der Mikro- durch eine Ausftihrungseinheit zum selektiven Ausfuh- 

befehle von einem vorgegebenen Standpunkt aus anzeigen, ren einer spezifizierten Operation an einem oder meh- 

die eliminiert bzw. zuriickgehalten werden sollen. Die zum reren Datenelementen in dem spezifizierten wenigstens 

Ausftihren der oben beschriebenen Beseitigung erforderli- 60 einen Register in Abhfrigigkeit davon, ob die spezifi- 

che Logik variiert in AbhMngigkeit vom Steuerungsmecha- zierte Operation dem ersten oder dem zweiten Satz von 

nismus, der die Mikrobefehle durch den Rest der Pipeline Befehlen zugeordnet ist. 

leitet Wenn beispielsweise die Mikrobefehle in eine Warte- 4. Prozessor nach Anspruch 3, dadurch gekennzeich- 

schlange eingereiht werden, wiirde Logik hinzugeftigt wer- net, daB die Ausftthrungseinheit eine Mehrzahl von 

den, um den Kopf- und den Ende-Zeiger der Mikrobefehls- 65 Multiplexern aufweist, um zwischen einem Ergebnis 

warteschlange zu bearbeiten, um zu bewirken, daB ungliltige der spezifizierten Operation und einem vorgegebenen 

Mikrobefehle durch nachfolgend erzeugte gtiltige Mikrobe- Wert zu wBhlen. 

fehle iiberschrieben werden. Zahlreiche weitere Elirninie- 5. Der Prozessor nach Anspruch 3, dadurch gekenn- 



U DE 19914 617 Al O 

19 20 



zeichnet, daB die Ausftihrungseinheit eine Mehrzahl 
von Multiplexern aufweist, urn zwischen einem der 
Nvenigstens einen Datenelemente und einer Identit&ts- 
funktion zur Eingabe an die spezifizierte Operation zu 
wfihlen. 5 

6. Verfahren zum AusfUhren eines Makrobefehls in ei- 
nem Prozessor, wobei 

ein einzelner Makrobefehl empfangen wird, der zumin- 
dest zwei logische Register in einer Registerdatei ge- 
packter Daten spezifiziert, wobei die beiden logischen 10 
Register einen ersten gepackten Datenoperanden bzw 
einen zweiten gepackten Datenoperanden speichern, 
die einander entsprechende Datenelemente aufweisen, 
und 

eine erste und eine zweite Mehrzahl der einander ent- 15 
sprechenden Datenelemente aus dem ersten bzw. dem 
zweiten gepackten Datenoperanden unabhangig zu 
verschiedenen Zeiten unter Verwendung der gleichen 
Schaltung verarbeitet werden, um unabhangig eine er- 
ste und eine zweite Mehrzahl von Ergebnisdatenele- 20 
menten zu erzeugen, indem 

eine von einem einzelnen Makrobefehl spezifizierte 
Operation an zumindest einem Paar einander entspre- 
chender Datenelemente in der ersten und der zweiten 
Mehrzahl entsprechender Datenelemente durchgefuhrt 25 
wird, um zumindest ein Eigebnisdatenelement der er- 
sten und zweiten Mehrzahl von Ergebnisdatenelemen- 
ten zu erzeugen, und 

die verbleibenden Ergebnisdatenelemente der ersten 
und zweiten Mehrzahl von Eigebnisdatenelementen 30 
auf wenigstens einen vorgegebenen Wert gesetzt wer- 
den, und 

die erste und zweite Mehrzahl von Eigebnisdatenele- 
menten in einem einzigen logischen Register als dritter 
gepackter Datenoperand gespeichert werden. 35 

7. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine voigegebene Wert Werte 
der Datenelemente von entweder dem ersten gepackten 
Datenoperanden oder dem zweiten gepackten Daten- 
operanden umfaBt. 40 

8. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine voigegebene Wert Null ist. 

9. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert eine 
Keine-Zahl(NaN)-Anzeige ist 45 
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